ROCm и HIP: Подробное 10-главное руководство: Память-ориентированная природа производительности графических процессоров

При ускорении на графических процессорах мы должны отказаться от подхода «вычисления первыми». Современная производительность определяется управлением памятью: координацией выделения данных, синхронизации и оптимизации между хостом (ЦП) и устройством (ГПУ).

1. Разрыв между памятью и вычислениями

Хотя пропускная способность арифметических операций на ГПУ ($ТФЛОПС$) резко возросла, пропускная способность памяти ($ГБ/с$) увеличилась намного медленнее. Это создает разрыв, при котором блоки выполнения часто «голодают», ожидая поступления данных из видеопамяти. В результате, программирование на ГПУ часто является программированием памяти.

2. Модель крыши (Roofline)

Эта модель визуализирует связь между интенсивностью арифметических операций (FLOP/байт) и производительностью. Приложения обычно делятся на два типа:

Ограниченные пропускной способностью памяти: Ограничены пропускной способностью (крутизной подъема).
Ограниченные вычислительной мощностью: Ограничены пиковыми ТФЛОПС (горизонтальным потолком).

3. Налог за перемещение данных

Основным узким местом производительности редко являются математические операции — это задержка и энергозатраты при перемещении байта по шине PCIe или из памяти HBM. Высокоэффективный код ориентируется на сохранение данных в памяти и минимизирует передачу данных между хостом и устройством.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary cause of a GPU kernel being 'memory-bound'?

The clock speed of the GPU cores is too slow.

The rate of data delivery is slower than the rate of arithmetic execution.

There are too many threads running in parallel.

The CPU is faster than the GPU.

QUESTION 2

In the context of GPU programming, what does 'Memory Management' involve?

Only allocating variables on the CPU stack.

Controlling allocation, synchronization, and optimization of data transfer between host and device.

Optimizing the cache size of the L1 controller.

Manually cleaning the GPU registers after every kernel call.

QUESTION 3

Which axis of the Roofline Model represents 'Arithmetic Intensity'?

Vertical Axis (Y)

Horizontal Axis (X)

The slope of the line.

The area under the curve.

QUESTION 4

Why is redundant host-device transfer considered a 'performance tax'?

It consumes GPU registers.

Latency and energy consumption of moving data across PCIe is significantly higher than instruction execution.

It increases the floating-point precision error.

It causes the GPU to overheat instantly.

QUESTION 5

If a researcher's kernel spends 95% of its time 'stalled,' what is the most likely culprit?

The math instructions are too complex.

Inefficient orchestration of data residence causing the GPU to wait for data.

The GPU has too much VRAM.

The kernel was written in C++ instead of Python.